Si les programmes de séquençage se développent de manière soutenue, force est de constater que la masse des données accumulée reste difficilement exploitable pour la communauté scientifique. L’explosion de cette production, couplée à la spécificité du domaine, empêche les technologies classiques de base de données d’opérer de manière efficace. Paradoxalement, la masse de connaissance accumulée sur les myriades de projets nationaux ou internationaux génère le propre frein à son exploitation. Ainsi, il n’existe pas de système capable d’exploiter finement et/ou de croiser massivement des données de variants de séquences. Repérer les variants d’un génome, recouper à grande échelle des séquences pour déceler des profils de variants communs constitue un outil de recherche puissant, ainsi qu’une aide au diagnostic et à la prise en charge des patients.
Face aux limites vite atteintes des systèmes actuels, le CEA et Biofacet ont développé les spécifications d’un système de gestion de base de données capable de stocker et d’interroger à très grande échelle des banques de données nationales ou internationales de variants provenant de séquençage d’exomes ou de génomes complets (WGS : Whole genome Sequencing). La technologie résultante, implantée dans le logiciel Biofacet™, permet d’agréger et d’interroger des études sur des milliers d’échantillons. Par un couplage optimisé entre données numériques et phénotypiques, la technologie développée permet plus précisément :
- l’interrogation « profonde » des données, i.e. la possibilité d’établir des requêtes sur la totalité des valeurs produites par les SNP-callers et ce pour chaque position du génome (3 milliards de nucléotides pour le génome humain) ;
- l’interrogation mixant les génotypes et les phénotypes, permettant ainsi de mieux cibler les causes ou effets potentiels des variants de séquences liés à des maladies ;
- l’ajout incrémental d’échantillons.
Pour Jean-François Deleuze, directeur du CNG : « Le développement de la médecine de précision ne pourra se concrétiser sans des outils capables d’analyser rigoureusement les données de variants à très grande échelle. De par sa couverture massive, le séquençage Whole Genome introduit une rupture technologique, non couverte par les outils classiques du « Big Data ». Produisant et analysant ces données en routine au CNG depuis des années, nous connaissons la difficulté de gestion de ces données. Nous sommes heureux de collaborer avec une start-up française dans ce domaine à haute valeur ajoutée ».
- Les exomes regroupent l’ensemble des gènes fonctionnels de l’organisme (1,5 % du génome).
- Les variants sont des mutations pouvant contribuer au développement d’une pathologie.
Jean-Jacques Codani, Président de Biofacet SAS : « Bien que le logiciel Biofacet™ ait déjà obtenu une certification CLIA outre-Atlantique pour le diagnostic clinique, le défi posé par le CNG est tout autre. Nous l’avons relevé parce que nous avons trouvé au CNG les deux composantes indispensables au déploiement d’une telle technologie : tout d’abord un savoir-faire en production de données NGS et des compétences scientifiques indiscutables, ainsi qu’un environnement et une expertise technique d’excellence pour le calcul haute performance ».
L’application pilote ayant été déployée avec succès au CEA, les partenaires envisagent une montée en puissance progressive pour le traitement des milliers de génomes WGS en production au CNG. Ce faisant, ils valideront un composant logiciel apte à répondre aux défis d’analyse posés par l’avènement de la médecine génomique, et plus généralement par l’étude des variations génétiques d’intérêt pour l’industrie du vivant.